由国家科学基金会(NSF)资助的DILPORT项目http://dialport.org/涵盖了一组工具和服务,旨在满足对话研究社区的需求。在六年的时间里,已经创建了几种产品,包括Dialport Portal和DialCrowd。本文描述了这些贡献,这些贡献将在Sigdial中进行演示,包括实施,先前的研究,相应的发现以及工具将继续可为社区免费提供的位置。
translated by 谷歌翻译
对话研究的最终目标是开发可以在交互式设置中有效使用的系统。为此,我们在第9对话系统技术挑战中介绍了对话框的交互式评估。该曲目由两个子任务组成。第一个子任务涉及建立知识接地的响应生成模型。第二个子任务旨在通过与真实用户的交互式设置进行评估,旨在将对话模型扩展到静态数据集之外。我们的曲目挑战参与者开发强大的响应生成模型,并探索将它们扩展到与真实用户的来回互动的策略。从静态语料库到交互式评估的发展引入了独特的挑战,并促进了对开放域对话系统的更全面评估。本文概述了曲目,包括方法和结果。此外,它提供了有关如何最佳评估开放域对话框模型的见解
translated by 谷歌翻译
为了促进任务对话框中的零拍概括,本文建议语言模型作为数据(LAD)。LAD是创建各种准确的合成数据的范式,该数据传达了必要的结构约束,可用于训练下游神经对话模型。LAD利用GPT-3诱导语言多样性。LAD在意图预测(+15%),插槽填充(+31.4 f-1)和下一个动作预测(+11 F1)上,在零拍设置中获得了显着的性能增长。此外,互动的人类评估表明,与LAD的培训具有在人类对话中的培训竞争。LAD是开源的,并在https://github.com/shikib/lad上获得了代码和数据。
translated by 谷歌翻译
对话系统开发人员需要高质量的数据来训练,调整和评估其系统。他们经常为此使用众包,因为它提供了许多工人的大量数据。但是,数据质量可能不足。这可能是由于请求者提出任务以及他们如何与工人互动的方式。本文介绍了DialCrowd 2.0,以帮助请求者通过更清晰地介绍任务并促进与工人的有效沟通来帮助请求者获得更高质量的数据。DialCrowd 2.0指南开发人员创建了改进的人类智能任务(HITS),并且直接适用于开发人员和研究人员当前使用的工作流程。
translated by 谷歌翻译
亚马逊机械土耳其人(AMT)的众群请求者提出了关于工人可靠性的问题。 AMT Workforce非常多样化,无法将其作为群体的毯子假设。当他们没有得到他们期望的结果时,一些请求者现在拒绝工作阵容。这具有给每个工人(好的或坏)的效果(好的或坏)较低的人类情报任务(命中)批准得分,这对善工来说是不公平的。它还具有使请求者对工人论坛的良好声誉的影响。导致大规模拒绝的一些问题源于请求者而不是花时间以完整的指示和/或不支付公平工资创建一项良好的任务。为了探索这一假设,本文介绍了一项研究,这些研究将在给定的时间范围内提供的AMT上的众包命中,并记录有关这些命中的信息。本研究还记录了关于众包论坛的信息,就这些击中和他们的相应请求者录制了工人的角度。结果揭示了工人支付的问题和展示问题,如缺少指令或不可能的命令。
translated by 谷歌翻译